iT邦幫忙

2023 iThome 鐵人賽

DAY 6
1
自我挑戰組

SRE 照書養系列 第 6

Day 6 - SRE 照書養:緊急事件處理

  • 分享至 

  • xImage
  •  

大家週三好,嗚嗚這週要上六天班好漫長,今天我們要繼續 SRE 方法論的第四條:緊急事件處理,這裡是今天讀的原文出處:Introduction,話不多說,我們開始囉!

以前常常聽到「我們家的系統是高可用性,有 5 個 9 那麼多!」,一直都不太知道這個數字怎麼來的,還有可用性的定義到底是什麼?今天藉由 Google SRE Book 來帶我們看看吧!

什麼是高可用性?我們為什麼需要高可用性?

書上沒有直接定義高可用性,所以借用一下維基百科的定義:

高可用性(英語:high availability,縮寫為 HA),指系統無中斷地執行其功能的能力,代表系統的可用性程度。是進行系統設計時的準則之一。高可用性系統與構成該系統的各個組件相比可以更長時間運行。

評價一個系統是否是「高可用性」,我們可以從 MTTR 知道一些端倪,下面就來說說書裡提到的兩個專有名詞:

  • MTTR(平均恢復時間):在發生故障後,需要多長時間來修復並恢復正常操作的平均時間。
  • MTTF(平均失敗時間):在設備或系統正常運行期間,平均需要多長時間才會發生故障或失效的時間間隔。

如果我們做一個時間序的圖,會長成下面這個樣子:

https://ithelp.ithome.com.tw/upload/images/20230920/20105176bpRANOrPZ6.png

那麼如何計算可用性呢?

可用率(%)=(實際運行時間 / 預定運行時間)× 100%

所以若像上面提到的 5 個 9,那就是在一年 525,600 分鐘中,只能也 5 分鐘的停機時間。(好驚人!

另外書中提到 自動修復 > 人工干預 的概念,但倘若真的需要人工干預,建立「維運手冊」則是一個很好控制修復時間的手段:

通過事先預案並且將最佳方法記錄在「運維手冊(playbook)」上通常可以使MTTR 降低3倍以上。

今日思考題

除了「高可用性」,有時也會聽到「高可靠性」,那麼這兩個差在哪呢?

上面提過高可用性的定義,那我們先來看看高可靠性的定義:

高可靠性:一個服務連續無故障運行的時間,無故障運行的時間越長,可靠性就越高。

根據這個定義,我們可以用這個公式來衡量系統可不可靠:

故障率(%)= 故障次數 / 單位時間(即小時、週、月等)× 100%

可以看得出來高可用性跟高可靠性是有些相關性存在的,下面來腦洞思考一下會發生什麼事:

  • 一個高可用性,又很可靠的系統 → 💯
  • 一個高可用性,但不可靠的系統 → 在購物平台上,服務都可存取,不過提交訂單跳出一直失敗。
  • 一個高可靠性,但不可用的系統 → 在購物平台上,服務常常不能存取,在系統能夠提供服務ㄉ情況下,可以成功送出訂單買到想要的貨物。
  • 一個不可靠也不可用的系統 → 🤬

OS:如果一個系統可用性低,好像很難評估他是否高可靠(畢竟常常不能用)。

好拉!這就是今天思考題的部分拉!不知道大家是怎麼看兩個指標的呢?

後記

今天了解了緊急事件的名詞與流程,也提到了維運手冊的部分。我也十分認同建立維運手冊的重要性,除了可以讓每次發生意外時,降低緊張感,也可以模糊化特定角色的重要性(講白話就是我就算請假,若剛好有意外發生,職代也可以好好地將維運工作完成!),明天的內容是「變更管理」!那麼就明天見拉!掰噗!

參考資料


上一篇
Day 5 - SRE 照書養:監控系統
下一篇
Day 7 - SRE 照書養:變更管理
系列文
SRE 照書養30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言